两 种 新 的 多 维 计 算 机 化 分 类 测验 终止 规则 * 
任 赫 RF 


(北京 师范 大 学 中 国 基 础 教育 质量 监测 协同 创新 中 心 ， 北 京 ，100875) 


摘 要 计算 机 化 分 类 测验 (Computerized Classification Testing, CCT) 由 于 具备 分 类 的 功能 ， 
目前 在 职业 资格 考试 、 健 康 与 护理 问卷 等 以 分 类 为 目的 的 测验 中 得 到 广泛 应 用 。 作 为 CCT 
的 重要 组 成 部 分 ， 终 止 规 则 不 仅 决 定 测验 停止 的 条 件 而 且 直 接 影响 分 类 准确 率 及 测验 效率 。 


然而 ， 目 前 少 有 研究 对 多 维 CCT (Mulitidimensional CCT, MCCT) 的 终止 规则 进行 探索 。 针 


对 已 有 MCCT 终止 规则 的 不 足 ， 提 出 两 种 新 的 MCCT 终止 规则 《〈 即 基于 马 氏 距 离 的 多 维 序 


贯 似 然 比 规则 Mahalanobis-SPRT 和 随机 缩减 的 多 维 广义 似 然 比 规则 M-SCGLR )， 并 开展 模 
拟 研 究 在 不 同 实验 条 件 下 《〈 比 如， 不 同 的 题库 结构 、 能 力 维 度 间 相关 及 分 界 函数 ) 考查 它们 


的 表现 。 结 果 表 明 : CIO 在 使 用 补偿 性 分 界 函 数 的 条 件 下 ，Mahalanobis-SPRT 规则 具有 较 高 
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的 分 类 精度 和 与 同类 方法 相近 的 测验 长 度 ; (2) 在 几乎 所 有 实验 条 件 下 ，M-SCGLR 规则 不 
仅 在 测验 精度 上 大 幅 优 于 已 有 的 多 维 随机 缩减 规则 ， 而 且 具 有 较 短 的 测验 长 度 。 


关键 词 计算 机 化 分 类 测验 ， 终 止 规则 ， 多 维 项 目 反 应 理论 ， 马 氏 距 离 ， 随 机 缩减 


1 引言 


计算 机 化 分 类 测验 (Computerized Classification Testing, CCT) 是 一 种 特殊 的 计算 机 化 自 


适应 测验 (Computerized Adaptive Testing, CAT)， 它 能 够 高 效 地 将 被 试 划分 到 两 个 〈 即 达标 
和 未 达标 ) 或 多 个 〈 比 如 , 合格 、 良 好 和 优秀 ) 不 同 的 类 别 中 。CCT 将 计算 机 作为 测量 媒介 ， 
二 用 自 适 应 的 选 题 策略 和 终止 规则 ,基于 被 试 当 前 的 能 力 估计 值 精 准 地 匹配 测试 题目 ， 直 到 


=> 


满足 终止 规则 的 要 求 , 停止 测验 并 提供 对 被 试 能 力 进行 分 类 判断 的 结果 。 目 前 ， 这 类 测试 已 


被 广泛 应 用 于 职业 资格 考试 (Huebner & Fina, 2015 ) 和 健康 与 护理 问卷 (Finkelman et al., 2011; 


Smits & Finkelman, 2013)， 其 中 的 健康 与 护理 问卷 可 以 针对 某 种 疾病 或 与 护理 计划 直接 相关 
的 某 些 阶段 将 患者 划分 至 有 风险 /无 风险 的 类 别 中 。 尽 管 可 以 将 各 种 心理 测量 理论 作为 CCT 
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的 基础 ， 但 是 近年 来 大 多 数 研究 与 应 用 都 将 焦点 集中 在 基于 项 目 反 应 理论 (ltem Response 


Theory, IRT) 的 可 变 长 度 的 CCT 研发 上 (Huebner & Fina, 2015; Li et al., 2020; Wang et al., 
2020)。 

完整 的 CCT 和 CAT 均 包 括 IRT 模型 、 题 库 、 选 题 策略 、 能 力 参数 估计 方法 以 及 终止 规 
则 五 个 核心 组 成 部 分 ( 郭 硕 等 ,2015)。 但 是 两 者 在 测验 目的 上 并 不 相同 : CAT 的 目的 是 对 
被 斌 能力 进行 准确 估计 〔 陈 平 , 2016)， 而 CCT 只 需要 输出 对 被 试 的 类 别 划分 。 这 就 对 测验 
的 终止 规则 《也 即 测验 应 该 如 何 停止 以 及 如 何 给 出 测验 结果 ) 提出 不 同 的 要 求 ， 因 此 有 必要 
对 CCT 的 终止 规则 进行 单独 研究 。 在 可 变 长 度 的 二 分 类 测验 的 背景 下 ,已 有 的 CCT 终止 规 
则 可 以 被 分 为 两 类 : 似 然 比 规则 和 贝 叶 斯 规则 。 似 然 比 规则 的 基本 思路 是 通过 事先 规定 不 同 
类 别 被 试 的 真实 能 力 分 界 值 ,来 构造 似 然 比 统计 量 并 进行 假设 检验 , 从 而 完成 对 被 试 的 分 类 。 


最 早 的 似 然 比 终止 规则 是 Wald (1947) 提出 的 序 贯 似 然 比 检验 (Sequential Probability Ratio 


Test, SPRT). Bartroff & (2008) 则 将 广义 似 然 比 〈Generalized Likelihood Ratio, GLR) 方法 
应 用 于 变 长 的 CCT 中， 并 对 GLR 的 良好 性 质 进行 证 明 。Thompson (2011) 通过 模拟 研究 发 
Hl: 相 比 于 SPRT，GLR 方法 能 够 在 维持 分 类 精度 的 基础 上 较 大 幅度 地 提高 测验 效率 (或 缩 
短 测验 长 度 )。 此 外 ,研究 者 发 现 ， 由 于 受制 于 现实 因素 (比如 疲劳 效应 、 练 习 效 应 )， 往 往 
不 可 能 要 求 被 试 一 直 作答 直至 满足 SPRT 的 条 件 。 在 这 种 情况 下 ， 如 果 结 合 随机 缩减 


(stochastic curtailment) 技术 就 有 可 能 提高 测验 效率 。 由 此 , Finkelman (2003, 2010) 在 SPRT 


的 基础 上 结合 随机 缩减 技术 ,开发 出 随机 缩减 的 SPRTCStochastically Curtailed SPRT, SCSPRT) 


以 及 有 预测 能 力 的 SPRT CSPRT with Predictive Power, PPSPRT)。Huebner 和 Fina (2015) Jill 


将 随机 缩减 技术 与 GLR 方法 相 结 合 , 提 出 基于 GLR 的 随机 缩减 方法 (Stochastically Curtailed 


GLR, SCGLR)。 模 拟 研究 的 结果 表明 : 使 用 随机 缩减 的 方法 能 够 提高 测验 效率 (Finkelman, 


2008; Huebner & Fina, 2015; Wang et al., 2020)。 另 一 方面 ， 贝 叶 斯 规则 的 基本 思路 则 是 通过 
作答 反应 获取 被 试 能 力 的 后 验 分 布 , 并 使 用 后 验 分 布 计算 损失 函数 值 ， 从 而 完成 对 被 试 的 分 
类 。Lewis 和 Shehan (1990) 率先 引入 先 验 函数 和 损失 函数 ， 并 提出 基于 贝 叶 斯 决策 理论 的 
终止 规则 。 接 下 来 ， 本 文 仅 在 变 长 的 二 分 类 测验 情境 下 关注 基于 似 然 比 规则 的 终止 规则 。 


值得 注意 的 是 , 上 述 终 止 规 则 都 建立 在 单 维 IRT(UnidimensionalIRT, UIRT) 的 基础 上 ， 
即 假设 测验 仅 考察 被 试 单一 维度 的 能 力 。 但 是 在 心理 或 教育 测验 的 实践 中 , 测验 往往 同时 考 
察 被 试 在 多 个 维度 上 的 潜在 特质 ， 这 就 与 上 述 的 单 维 性 假设 相悖 〈 康 春花 , 辛 涛 ,2010)。 为 
解决 这 一 问题 , 基于 多 维 IRT (Multidimensional IRT, MIRT) 构建 多 维 CCT (Multidimensional 


CCT, MCCT) 就 显得 十 分 必要 。 迄 今 ， 关 于 MCCT 的 研究 较 少 ， 只 有 少数 研究 者 将 特定 的 
2 


似 然 比 规则 从 单 维 情境 推广 至 多 维 情境 (Nydick, 2013)。 在 MCCT 中 ， 似 然 比 规则 的 基本 
思路 与 单 维 情境 的 一 致 , 但 是 能 力 参数 的 多 维 性 导致 各 类 别 间 的 能 力 分 界 点 转变 为 能 力 分 界 
曲线 (二 维 情境 下 ) 或 能 力 分 界 曲面 (三 维 及 以 上 情境 下 )。 为 此 ，Nydick (2013) 提出 用 
似 然 函 数 约束 的 方法 构建 约束 的 SPRT CConstrained SPRT, C-SPRT)、 使 用 空间 投影 的 方法 
构建 投影 的 SPRT (Projected SPRT, P-SPRT) 以 及 在 此 基础 上 开发 随机 缩减 的 多 维 SPRT 


(Multidimensional SCSPRT, M-SCSPRT)。 此 外 ，Nydick (2013) 还 首先 将 多 维 GLR 检验 


(Multidimensional GLR, M-GLR) 引入 MCCT. 


综 上 ， 基 于 MIRT 构建 MCCT 终止 规则 能 够 更 好 地 适应 现实 测验 的 需要 。 本 文 在 总 结 
与 分 析 已 有 MCCT 终止 规则 的 基础 上 ， 提 出 两 种 新 的 MCCT 终止 规则 : 第 一 种 是 基于 马 氏 
距离 的 多 维 序 贯 似 然 比 终止 规则 (Mahalanobis-SPRT)， 具 体 思路 是 将 马 氏 距离 融入 P-SPRT 


方法 ; 第 二 种 是 多 维 随机 缩减 的 GLR 规则 (Multidimensional SCGLR, M-SCGLR)， 可 以 被 
视 为 SCGLR 在 多 维 情境 下 的 推广 。 两 种 新 终止 规则 相对 于 已 有 规则 的 表现 ， 将 通过 模拟 研 
究 在 多 种 实验 条 件 下 进行 全 面 评 价 。 

本 文 的 剩余 部 分 将 按 如 下 方式 进行 组 织 : 第 2 节 首 先 简 要 描述 本 文 使 用 的 MIRT 模型 以 


及 四 种 已 有 的 MCCT 终止 规则 CB C-SPRT. P-SPRT. M-GLR 以 及 M-SCSPRT), 然后 详细 


介绍 两 种 新 提出 的 MCCT 终止 规则 CE Mahalanobis-SPRT 和 M-SCGLR)。 第 3 节 将 介绍 模 
拟 研究 设计 ， 并 在 第 4 节 展 示 研 究 结 果 与 结论 。 最 后 一 节 进 行 讨论 并 展望 未 来 的 研究 方向 。 
2 方法 
2.1 MIRT 模型 

本 文 假设 所 有 题目 都 由 多 维 三 参数 逻辑 斯 蒂 克 模型 (Multidimensional Three-Parameter 


Logistic Model, M3PL) 建 模 。 在 该 模型 中 ， 能 力 向 量 为 9; 的 被 试 i 正确 作答 二 级 计 分 题目 j 的 


概率 为 (Reckase & Mckinley, 1982), 


1-c; 
P,(0;) 三 Prob(Y;; 一 1|0i,aj, dj, cj) 三 Cj 十 een | (1) 


其 中 ,Yj 是 取 值 为 0 或 1 的 伯 努 利 随机 变量 ， 表 示 被 试 i 在 题目 i 上 的 二 级 计 分 作答 反 


Ri. 0; = (Oi 80, .., Bip) 表示 被 试 ;的 p 维 能 力 向 量 ，7 表 示 转 置 。aj = (aj, jj, Qjp) JN 


题目 j 的 p 维 区 分 度 参数 向 量 , 有 ay 0; = Dei aj Ons 标量 dj 是 与 题目 难度 相关 的 截 距 参 数 ， 
标量 c 则 是 题目 的 伪 猜 测 参数 。 为 方便 对 模型 参数 的 含义 进行 解释 ，Ackerman《〈1994) 定义 


MDISC, = (aj, + aj, + + aj zy 为 题目 j 的 多 维 区 分 度 Cmultidimensional discrimination ), 


定义 MD 


MDISC; 


IFF, = 


L(,1¥,;") = TÉ- [P) (00) 


2.2 GAH MCCT 终止 规则 


2.2.1 


目前 大 多 数 关 于 MCCT 的 终止 规则 都 是 基于 


贯 似 然 上 


作为 题目 i 的 多 维 难 度 (multidimensional difficulty) o 


由 此 ， 被 试 1 对 六 道 题目 的 作答 反应 Yij, = (Vins Yiz oe Yy ) 的 似 然 函数 为， 


1 一 Yi 
, 


] ?[0;062] Q) 


tb. Q8) = 1— P0). Ra wedi Hee ALL I RC 


似 然 比 思想 与 C-SPRT、P-SPRT 以 及 M-GLR 规则 


上 规则 的 构成 可 以 总 结 为 四 个 步骤 :〈1) 


单 维 CCT 的 终止 规则 而 构建 。 一 个 单 维 序 


构造 假设 检验 ; (2) 确定 不 同等 级 间 的 能 力 


BROs; (3) 在 6 人 处 给 定 一 个 6 邻 域 , 即 (06 — 6,09 + 6) 三 (91,0,)。 当 能 力 值 落 在 该 区 间 时 ， 

认为 未 获得 足够 信息 对 被 试 进行 分 类 , 因此 该 区 间 也 被 称 为 无 差别 区 间 ; 而 当 能 力 值 大 于 6, 
时 认为 被 试 属于 “达标 ”的 类 别 ， 当 能 力 值 小 于 90, 时 认为 被 试 属于 “未 达标 ”的 类 别 ;(4) 
构建 似 然 比 统计 量 并 确定 拒绝 域 。 在 将 终止 规则 从 CCT 推广 到 MCCT 时 ， 需 要 定义 能 力 分 


界 曲线 或 曲面 才能 将 不 同类 别 的 被 试 区 分 开 来 。 


E CHEIN, JCO) = 6, + 6) REAM oto cibi, ec) = | 


一 个 研究 问题 是 如 何 将 分 界 


多 维 空间 中 的 go 在 不 同方 向 上 可 以 构造 人 


由 此 , 单 维 情境 下 的 能 力 分 界 点 bo 就 变 为 多 


维 空 间 中 的 能 力 分 界 曲线 或 曲面 9(8) = 0, 其 中 9g(6) 为 分 界 函 数 ， 具 体 可 分 为 补偿 性 的 分 界 


0,0, >0 


65, 450, >0 


)。 此 时 的 


线 或 曲面 转化 为 单 维 情况 下 的 分 界 阔 值 go。 另 外 ,即使 获得 bo， 


E 意 多 个 6 令 域 ， 因 此 如 何 选择 91 和 0,, 是 男 一 个 需要 


解决 的 问题 。C-SPRT、P-SPRT 以 及 M-GLR 分 别 从 三 个 不 同 的 角度 提供 解决 方案 。 
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试 的 能 


被 试 属 了 


(1 


基于 构造 的 上 述 假设 ，C-SPRT 的 基本 思路 是 使 用 约束 在 分 界 曲线 或 曲面 上 的 能 力 估 计 


BHAT Og» 并 计算 相应 的 9 和 6 《分 别 对 应 9 的 上 界 与 gm 的 下 界 上 的 点 )。 有 基体 


值 替 代 色 


E， 似 然 比 规则 需要 构造 假设 检验 ， 
Ho: 0c0 


n 


Hi1:0 € Om B 


其 中 ，9m 表 示 属 于 “达标 ”类 别 的 被 试 的 能 力 空间 ，@, 表 示 属 于 “未 达标 ”类 别 的 被 


空间 。 于 是 ,接受 原 假设 Ho 表示 被 试 忆 


F “达标” 类 别 。 


) C-SPRT 


于 “未 达标 ”类 别 ， 接 受 备 择 假设 矶 则 表示 


地 说 ， 在 被 试 i 作答 完 j" 道 题目 后 ，C-SPRT 方法 首先 将 在 分 界 曲线 或 曲面 上 计算 得 到 的 能 
参数 估计 值 go 作 为 能 力 分 界 点 go 的 估计 ， 即 


0, = arg max[logL(0|Y;;:)], » 
GEO, 


HA, Oo = (6:9(8) = 0} 表 示 能 力 分 界 曲线 或 曲面 。 上 式 表示 将 9o 上 使 得 logZ (OLY; ;") 
取 最 大 值 的 点 记 为 Bu。C-SPRT 方法 然后 在 6 处 g(6) = 0 的 法 向 量 方向 上 构造 5 邻 域 。 记 0 


为 该 方向 的 单位 向 量 , 即 9s = OO ， 其 中 Y 为 哈密 顿 算 子 ， 表 示 微 分 运算 , | 表示 欧 几 


lva (80)lL, 
里 得 范 数 ， 用 于 衡量 欧 氏 空间 内 的 距离 。 于 是 可 得 到 无 差别 区 间 的 上 下 限 分 别 为 
ð, = 0, + 505, (5) 
9, = 0, — 505. (6) 


根据 Wald (1947) 提出 的 似 然 比 检验 构造 似 然 比 统计 量 ， 得 到 


入 入 L 0 |Y;;;) 
Cij 一 log[LR(@,,, 4;|¥;;) | = log enn (7) 


记 第 一 类 和 第 二 类 错误 率 分 别 为 <q 和 pB, A = A(a, B). B = B(a, B). C; = log(4). C, = 


log(B) H.C = 979, 在 分 类 测验 的 背景 下 , 通常 取 4(a, B) = -EAB (a, B) = ZÉ Finkelman, 


2003)。 在 被 试 i 作 答 完 j' 道 题目 后 ， 计 算 Cij,， 并 基于 似 然 比 检验 规则 给 出 如 下 判断 ， 若 
Cij S Ci, (8) 


则 停止 测验 ， 测 验 长 度 为 i ， 并 判断 被 试 属于 “未 达标 ” A 
Cij = Cy, (9) 


MEWS TWA, FRAT "XS 7. 否则 ， 即 
Ci < Ci Cy, (10) 

则 继续 给 被 试 作答 下 一 道 题 。 

Wald-Wolfowitz 定理 表明 : 在 测验 可 以 持续 进行 直至 满足 上 述 终止 规则 的 情况 下 , SPRT 
是 具有 同等 检验 力 的 检验 中 所 需 观 测 个 数 最 少 的 假设 检验 ， 即 最 优 序 贯 检验 CWald & 
Wolfowitz, 1948)。 但 是 在 现实 情境 下 ， 由 于 疲劳 效应 、 练 习 效 应 等 因素 的 影响 , 不 可 能 要 求 
被 斌 一直 作答 直至 满足 不 等 式 (8) 或 (9)。 因 此 在 单 维 CCT +, 一般 通 过 事先 设 定 最 大 测 
验 长 度 ] 以 满足 上 述 现实 需要 。 于 是 ,研究 者 在 设计 不 定 长 的 MCCT 终止 规则 时 也 沿用 这 一 
附加 的 强制 结束 条 件 。 这 就 是 说 ， 若 达到 最 大 长 度 J 时 测验 仍 未 结束 ， 则 根据 下 述 准 则 对 被 
试 进行 强制 分 类 ， 若 Ci < Co， 则 停止 测验 ， 测 验 长 度 为 |，， 并 判断 被 试 属于 “未 达标 ”， 若 
Cj > Co， 则 停止 测验 ， 测 验 长 度 为 7， 并 判断 被 试 属于 “达标 ”( 记 该 准则 为 最 大 测验 长 度 
下 似 然 比 检验 的 判断 准则 )。 

记 被 试 最 终 完 成 测验 的 实际 作答 题目 数 为 K， 分 类 判断 结果 为 D COD = m 表 示 被 试 属于 
“达标 ” D = n 表 示 被 试 属 于 “未 达标 ”)， 最 大 测验 长 度 为 /|， 则 整个 C-SPRT 的 判断 规则 
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可 以 概括 如 下 ， 
停止 测验 ,K —j,D-2n ËQ <J, Ci < Chay’ =J, Cir < Co} 


停止 测验 ,K —j,D-m BY" <J, Cy > CRG" =J, Cir > Co} (11) 
继续 测验 否则 
(2) P-SPRT 


P-SPRT 与 C-SPRT 唯一 的 区 别 在 于 它 采 用 不 同方 法 将 分 界 曲线 或 曲面 转换 为 可 用 于 假 
设 检 验 的 分 界 点 。 有 具体 地 说 ，P-SPRT 将 基于 当前 作答 得 到 的 被 试 能 力 估 计 值 投影 至 9(6) = 
0 所 刻画 的 边界 上 ,并 将 投影 视 作 分 界 点 。 在 被 试 作答 完 j' 道 题目 后 , 对 其 能 力 估计 值 进 行 投 
影 的 表述 如 下 : 


8, = argmin||ð, - 6|... (12) 


juni 


其 中 ， 人 表示 被 试 ;的 能 力 估计 值 。 由 于 | 代表 欧 氏 空间 内 的 距离 ， 因 此 公式 C120 表 
示 将 Qo 上 与 0; 距 离 最 近 的 点 记 为 66。， 也 就 是 将 0; 投影 至 Bo 上， 并 将 投影 得 到 的 点 记 为 0。 


确定 G6 后 ，P-SPRT 也 依照 等 式 (5)、(6) 和 (7) 得到,、 人 以 及 Gi。 


(3) M-GLR 


M-GLR 方法 在 构造 似 然 比 统计 量 的 思路 上 与 P-SPRT 和 C-SPRT 都 不 同 。GLR 统计 量 
Ci 是 似 然 函 数 在 不 同类 别 被 试 ( 即 “达标 ”与 “未 达标 ”) 的 能 力 空间 中 的 最 大 值 之 比 的 对 
数 ， 它 不 同 于 等 式 (7) 需要 确定 包 .和 人 ， 因 此 从 理论 上 可 避免 “多 维 情境 下 要 将 分 界 曲线 


或 曲面 转换 为 分 界 点 ”的 需求 。M-GLR 统计 量 定义 为 

Cy = jog iia os Irun] (13) 
sup [(83]Yiy') 

Hh, 0, € 9m 表 示 g1 是 “达标 ”被 试 的 能 力 空间 9m 中 的 任 一 值 , 9z € 0,228027 “HK 
达标 ”被 试 的 能 力 空间 9, 中 的 任 一 值 。 公 式 〈13 ) 的 分 子 部 分 即 为 在 “达标 ”被 试 的 能 力 空 
间 内 似 然 函数 的 最 大 值 , 而 分 母 部 分 即 为 在 “未 达标 ”被 试 的 能 力 空 间 内 似 然 函数 的 最 大 值 。 

由 此 可 以 发 现 ， 与 单 维 的 GLR 方法 相 比 ，M-GLR 只 是 将 Cij' 中 求 极 值 的 集合 由 单 维 的 能 力 
区 间 变 为 多 维 能 力 空间 中 的 区 域 , 其 性 质 并 没有 变化 。 需要 说 明 的 是 , 尽管 C-SPRT、P-SPRT 
与 M-GLR 在 构造 统计 量 的 具体 方式 上 存在 差异 , 但 都 是 基于 公式 (3) 所 对 应 的 假设 检验 ， 

而 且 仪 依赖 构造 的 似 然 比 统计 量 进行 判断 。 因 此 ， 在 得 到 Ciy,〈 序 贯 似 然 比 统计 量 或 广义 似 


Th 


然 比 统计 量 ) 后 , P-SPRT 和 M-GLR 的 判断 准则 也 都 通过 与 G1、CG 或 G0 进行 比较 得 到 测验 结 
果 ， 即 按照 公式 〈11) 所 定义 的 规则 对 被 试 做 出 分 类 判断 。 
2.2.2 随机 缩减 与 M-SCSPRT 规则 


如 前 所 述 ， 由 于 最 大 测验 长 度 ] 的 引入 与 Wald-Wolfowitz 定理 的 前 提 假 定 相 悖 ， 因 此 在 
同等 条 件 下 ，SPRT 不 再 具有 最 大 检验 力 。 这 种 低 效 不 仅 增 大 测验 长 度 ， 而 且 导 致 测验 时 间 
和 题目 曝光 率 的 上 升 。 因此, 在 维持 SPRT 分 类 准确 率 的 基础 上 缩短 测验 长 度 有 助 于 MCCT 


的 应 用 。 随 机 缩减 (Finkelman, 2008; Huebner & Fina, 2015) 正 是 解决 该 问题 的 一 种 方法 : 
即 如 果 被 试 接 下 来 的 作答 反应 在 较 大 概率 上 不 会 改变 当前 对 被 试 的 分 类 判断 , 那么 此 时 便 结 
束 测验 是 合理 的 。 

M-SCSPRT 规则 是 一 种 将 随机 缩减 与 C-SPRT 相 结合 的 多 维 似 然 比 终止 规则 , 它 在 完整 
保留 公式 (11) 所 定义 判断 准则 的 基础 上 ,对 原本 需要 继续 作答 的 被 试 ! 再 次 进行 判断 。 有 具体 
地 说 ，M-SCSPRT 按照 等 式 (4) EER 〈7) 计算 约束 下 的 似 然 比 统计 量 Cj， 并 计算 被 试 


作答 至 最 大 测验 长 度 /时 ， 对 被 试 的 分 类 判断 与 当前 一 致 的 概率 
P(D, = 也 co)， (14) 
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FLD RAN BOE AS cj WALI, AKA R: Dj 表示 被 试 作答 完 ] 道 题目 时 ， 


对 被 试 的 最 终 分 类 。 预 分 类 的 判断 准则 与 最 大 测验 长 度 下 似 然 比 检验 的 判断 准则 一 致 ， 即 
D =n, C <C 
j : jj = "0 

e = m, Ci! > Co (15) 


由 公式 OD, Æ 2.2.1 ARMS AR Re, Ej < JC, < Cyr < Co UST 


继续 进行 。 但 是 ，M-SCSPRT ZrikfEj! < J 时 ， 对 公式 AD BET f n Pa, Ey’ = /时 
不 变 ， 

停止 测验 ,K =j',D =n TC; < Ci} 或 {CI < Cij' < Co, P(Dj = n|Cij) > 1 一 E1} 

停止 测验 ,K = j',D = m E(Ciy > C,} RC, > Ciy > Co, P(D, = m|Cjp)) 21—e;) (16) 


J 
继续 测验 否则 


Ep, a 与 ez 为 事先 设 定 的 临界 值 。 以 往 的 模拟 研究 表明 : He 与 ez 都 取 0.05 时 ， 能 在 
损失 较 小 测验 分 类 精度 的 前 提 下 大 幅 缩短 测验 长 度 〈Finkelman, 2008, 2010). 
2.3 两 种 新 的 MCCT 终止 规则 
2.3.1 Mahalanobis-SPRT 

如 公式 (12) 所 述 , P-SPRT 规则 使 用 欧 氏 距离 对 被 试 能 力 估计 值 进行 空间 投影 。 但是， 
在 CCT 施 测 的 初期 阶段 , 对 被 试 能 力 的 估计 往往 不 够 准确 , P-SPRT 仅 使 用 一 次 估计 的 能 
结果 进行 投影 可 能 会 使 6, 不够 稳定 ， 从 而 影响 分 类 结果 (在 高 维 情境 下 这 种 影响 可 能 会 万 
为 突出 )。 因 此 在 多 维 情境 中 ,“ 按 欧 氏 距离 对 被 试 能 力 值 进行 投影 ”这 种 做 法 有 待 商 梭 。 

本 文 基于 聚 类 分 析 的 思想 ,提出 基于 马 氏 距离 的 Mahalanobis-SPRT 规则 , 以 克服 P-SPRT 


的 上 述 不 足 。 在 测验 初期 , 尽管 单个 被 试 能 力 估计 值 并 不 准确 , 但 是 如 果 将 多 个 能 力 估计 值 
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综合 起 来 ， 就 可 以 大 致 描绘 出 被 试 真实 能 力 值 所 处 的 范围 。 具 体 地 说 ， 测 验 初 期 的 能 力 估 计 
值 是 在 真 值 附近 上 下 波动 的 ， 而 并 非 一 致 地 高 于 或 低 于 真 值 ， 所 以 多 个 能 力 估计 值 的 均值 ， 
主 往 就 更 加 接近 真 值 。 图 1 表示 某 名 被 试 在 一 个 二 维 测验 过 程 中 , 其 能 力 估 计 值 随 作 答题 目 
数量 变化 而 变化 的 情况 。 其 中 ， 蓝 色 的 三 角形 点 代表 该 被 试 的 能 力 真 值 ， 红 色 的 圆 形 点 代表 
对 被 试 能 力 的 估计 值 ， 红 色 越 深 表示 得 到 该 能 力 估计 值 时 被 试 作答 的 题目 数量 越 多 。 由 图 1 
可 以 看 到 : 在 被 试 作答 的 题目 数量 较 少 时 , 被 试 的 能 力 估计 值 与 真 值 相差 较 大 。 但 与 此 同时 ， 
在 两 个 维度 上 ， 能 力 估计 值 都 是 围绕 真 值 上 下 波动 的 。 因 此 ,在 测验 初期 ， 多 个 能 力 估计 值 
的 均值 就 能 够 对 被 试 能 力 真 值 进行 比较 准确 的 描述 。 


=~ 


* us 


四 1 二 维 情境 下 某 名 被 试 的 能 力 估计 值 随 作答 题 数 的 变化 区 

综 上 ， 使 用 分 界 曲线 或 曲面 上 的 点 中 ， 到 “已 得 到 的 多 个 能 力 估计 值 的 均值 ” 的 马 氏 距 
离 最 近 的 点 作为 6。( 这 也 正 是 Mahalanobis-SPRT 方法 的 做 法 ) 比 P-SPRT 中 直接 使 用 分 界 
时 线 或 曲面 上 到 人 的 欧 氏 距离 最 近 的 点 要 更 合理 。 于 是 , 我 们 可 以 定义 Mahalanobis-SPRT 规 


则 下 的 分 界 点 6。， 即 


0, = arana — All (17) 


AG Well REB RES; 0, A CAUTE A 7j 8 CH Jer SS 1 Be 73 de TELE TR 
代表 对 被 试 能 力 真 值 的 近似 刻画 。 如 果 将 被 试 ! 作 答 完 第 / 道 题 目 后 得 到 的 p 维 能 力 估 计 值 记 


; 


358; = (851,055... 045). WAB = (Lia i/s XL agi] is XL Bip )- 另外 ， 
如 果 将 这 /个 能 力 估计 值 的 协 方差 矩阵 记 为 2 ， 那 么 根据 马 氏 距离 的 定义 上 且 当 2ij 可逆 CBU 
|Z; +0) 时 ， 有 


0, = argmin||6;;" 一 6|, — arg min IC 一 0;,)X; (0 一 Bi). (18) 
gegu 6c9o0 
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定义 9s 为 01 与 90 的 差 向 量 方向 上 的 单位 向 量 ， 即 


95 — — (19) 


zu 
i m 


655), Mahalanobis-SPRT 按照 等 式 (5). (6) 和 (7) f$5/8,. AMEC 
然后 按照 公式 (11) 所 述 的 判断 准则 对 被 试 进行 分 类 。 

需要 指出 的 是 ,公式 (17) 中 有 两 处 与 P-SPRT 所 定义 的 公式 (12) 不 同 :第 一 ,Mahalanobis- 
SPRT 使 用 “已 得 到 的 多 个 能 力 估计 值 的 均值 O)” ARE P-SPRT 中 的 单个 能 力 估 计 值 ; 
第 二 ，Mahalanobis-SPRT 使 用 马 氏 距离 作为 距离 的 度量 方式 ， 而 非 P-SPRT 中 的 欧式 距离 。 
总 之 , Mahalanobis-SPRT 新 规则 使 用 被 试 能 力 的 一 系列 序 贯 估计 值 ， 并 将 分 界 曲线 或 曲面 上 
距 其 均值 最 近 的 点 作为 66; 相 较 于 P-SPRT 使 用 单一 能 力 估计 值 进行 投影 ， 新 规则 理应 能 够 
获得 更 加 稳健 的 结果 。 


2.3.2  M-SCGLR 规则 


XE 


Huebner 和 Fina (2015) 提出 的 SCGLR 规则 将 随机 缩减 的 方法 与 GLR 相 结合 ,在 保持 

测验 分 类 精度 的 前 提 下 能 够 缩短 测验 长 度 。 因 此 , 本 文 将 SCGLR 方法 推广 至 MCCT 情境 ， 
并 得 到 多 维 的 SCGLR 规则 ( 记 为 M-SCGLR ).M-SCGLR 直接 沿用 M-GLR 的 方式 构造 GLR 
统计 量 ， 如 等 式 〈13 ) 所 示 。 
但 是 ， 在 对 被 试 进行 分 类 判断 时 ，M-SCGLR 采用 的 是 随机 缩减 方法 ， 即 对 公式 (11) 
在 六 < /的 情况 下 进行 如 下 调整 : 

停止 测验 ,K = j',D =n FEC < CBC, < Cip S Co, P(D, = n|C)) 21-6) 

停止 测验 ,K = j',D = m {Ci = Cy} REC, > Cir > Co,P(Dj =mlCij') z1—e29) (20) 

继续 测验 否则 


在 公式 (20) 中 ， 


-Ee(Cij|Ciy 
P(D, = n|Cip) = 1— P(D, = m|C;ij) > ® cte Cu Cur) 1 (21) 
vare(Ciy|Ci;") 
其 中 ， 
sup [r(6:|Yi) 
= J EOm 
006 C rte) = 


ea 
Vare(Cij|Cij: ) = X =j'+1 Vare (v E 
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其 中 ，@(.) 为 标准 正 态 分 布 的 分 布 函数 。 公 式 (21). (22) 和 (23) 的 具体 推导 过 程 ， 
感 兴趣 的 读者 可 参见 附录 1。 


需要 注意 的 是 , 当 能 够 事先 知道 第 j' + 1 道 题 到 第 1 道 题目 的 选取 时 , 上 述 计 算 并 不 困难 。 
但 在 自 适应 序 贯 选 题 的 情境 下 ,无 法 提前 获知 接 下 来 的 题目 .此 时 ,为 计算 等 式 (22) 与 (23)， 
可 以 使 用 一 组 合适 的 题目 替代 被 试 接 下 来 要 实际 作答 的 题目 。 比 如 ， 当 使 用 D 最 优选 题 策 
略 时 《〈 即 最 大 化 Fisher 信息 矩阵 的 行列 式 )， 可 以 基于 当前 的 能 力 估计 值 计 算 所 有 剩余 题目 
的 Fisher 信息 矩阵 的 行列 式 ， 然 后 选择 值 最 大 的 一 站 道 题目 作为 蔡 代 的 题目 。 单 维 情 形 下 
的 研究 表明 : 当 使 用 将 代 题 目 时 ， 需 适当 减 小 错误 率 e1 fle HE. (Finkelman, 2008). 
3 实验 


本 研究 采用 R 3.4.2 自 编 计 算 机 程序 开展 模拟 研究 ， 共 有 两 个 研究 目的 :(1) 将 新 提出 


的 2 种 MCCT 终止 规则 ( 即 Mahalanobis-SPRT 和 M-SCGLR) 与 已 有 的 4 种 终止 规则 ( 即 


C-SPRT、P-SPRT、M-GLR 以 及 M-SCSPRT) 进行 比较 ， 并 评价 它们 在 测验 精度 和 测验 效率 
两 方面 的 表现 以 揭示 各 种 方法 的 优 缺 点 以 及 适用 情境 ; (2) 对 比 上 述 6 种 终止 规则 对 于 具有 
特定 能 力 水 平 的 被 试 的 分 类 表现 , 以 探究 各 种 规则 对 特定 被 试 的 分 类 敏感 度 是 否 存 在 明显 差 
To 


考虑 到 不 同 题库 结构 、 能 力 维度 闻 相 关 及 能 力 分 界 曲线 会 对 MCCT 的 结果 产生 影响 ， 
本 研究 设置 2 种 题库 结构 、3 种 能 力 维度 间 的 相关 水 平和 2 种 分 界 曲线 ， 对 6 种 MCCT 终 
止 规 则 展开 模拟 研究 ， 也 即 采 用 2X3X2X6 的 实验 设计 〈 共 产生 72 种 实验 条 件 ，12 种 
MCCT 测验 情境 ) 实现 研究 目的 一 。 另 外 , 本 研究 还 分 别 选 取 靠 近 或 远离 能 力 分 类 曲线 的 36 
种 特定 能 力 取 值 的 被 试 及 2 种 分 界 曲线 以 实现 研究 目的 二 。 
3.1 题库 与 被 试 生成 


MIRT 的 研究 中 通常 考虑 两 种 题库 结构 , 即 题 目 内 多 维 Cwithin-item multidimensionality ) 
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和 题目 间 多 维 (between-item multidimensionality). WF, BAW 4 HEt ae P BI SER lt H 


均 测 量 一 个 或 多 个 维度 ， 而 题目 间 多 维 则 是 指 题库 中 的 每 道 题 目 有 且 仅 测量 一 个 维 


KR 


E 


(Hartig & Hóhler, 2008; Wang & Chen, 2004)。 由 于 题库 结构 会 对 被 试 能 力 向 量 的 估计 精度 


产生 影响 CChen & Wang, 2016), 因此 本 文 按照 公式 (1) 所 定义 的 MIRT 模型 生成 两 个 MCCT 
库 : 题库 1 采用 题目 内 多 维 的 结构 ， 题 库 2 采用 题目 间 多 维 的 结构 ， 每 个 题库 均 包含 900 
道 题 目 。 题 库 1 中 每 道 题目 都 测量 两 个 维度 〈 即 p = 2)， 由 此 可 记 题 库 中 的 题目 参数 向 量 为 
y = (apan d,c)". E 2 中 的 一 半 题 目 仅 测 量 第 一 个 维度 ， 另 一 半 则 仅 测量 第 二 个 维度 。 
为 使 模拟 情境 尽 可 能 地 接近 现实 情况 ， 本 研究 按照 Nydick (2013) 的 做 法 模拟 各 个 参数 : 


C1) ai 和 az 参数 。 从 均值 为 iog = 0.5、 标 准 差 为 01og = 0.1 的 对 数 正 态 分 布 中 随机 抽取 


& 
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区 分 度 参 数 MD1SC (Ba? + a20. FÆ 


az, Sly 


(2) d#llc#R. MU(-3.5, 3.5)4 
关 的 参数 d =—-b-a1, 其 
维度 的 a 参 数 的 乘积 的 负 值 。 此 外 ， 固 定 参数 c 为 0.2。 


与 之 相 


M 


企 题库 1 中 ， 可 以 从 均匀 分 布 U(0, MDISC?*) 中 抽取 


aj = MDISC? 一 a?; 而 在 题库 2 中 ， 设 置 对 应 维度 的 a 参数 等 于 MDISC 即 可 。 


REL. 


中 1 是 元 素 全 为 1 的 2 维 列 向 量 ; 


PF 随机 抽取 与 难度 相关 的 参数 bp。 由 此 ， 在 题库 1 中 ， 
在 题库 2 中 ，d 为 bp 和 对 应 


另 一 方面 , 本 文 模拟 3000 名 被 试 参与 测验 , 被 试 的 能 力 向 量 9 = (91,92)" 随 机 抽取 自 均 


值 向 量 


和 0.8， 分 别 对 应 能 力 维度 间 没 有 相关 、 中 等 相关 和 高 度 相关 38 


Ap = (0,0). 137; 25 


EREJE = n 


外 的 二 维 正 态 分 布 


MVN(p, £), 其 中 p = 0、0.5 


和 水平 (Chen et al., 2017). 


此 外 ， 本 文 模 拟 36 个 特定 的 能 力 向 量 值 (01,0,) 用 于 实现 研究 目的 二 ， 其 中 01,0, € 
- (—0.5, —0.3, —0.1, 0.1, 0.3,0.5} (6 个 点 在 两 个 维度 上 完全 交叉 共 形 成 36 个 点 )， 每 个 能 力 点 
LO 上 生成 500 名 被 试 参 与 测验 。 
< — ——— M—Ó +: — 
© 对 模拟 生成 的 数据 进行 描述 统计 ， 得 到 的 结果 如 表 1 所 示 。 
e 
eo d 1 研究 1 中 各 参数 的 描述 统计 表 
er 题库 1 (题目 内 多 维 ) 题库 2 题目 间 多 维 ) ik (p = 0) 被 试 (p = 0.5) WX (p = 0.8) 
Q, 计量 a, az d c a az d c 0, 0; 0, 0, 0, 0; 
CN 平均 数 1.103 1.098 0.086 0.200 0.830 0.833 0.131 0.200 -0.010 0.021 0.022 0.006 -0.016 -0.025 
& 示 准 差 0.428 0.414 4.348 0.000 0.839 0.842 3.336 0.000 0.998 0.996 1.011 0.991 0.999 1.000 
e 
= BME 0.038 0.040 -9.327 0200 0.000 0.000 -6281 0200 -3331 -3.125 -3.614 -3.196 -4.016  -3267 
> 
= e 2.285 2.065 8.873 0.200 2.196 2.329 7.220 0.200 3.252 3.332 4.269 3.071 3.264 3.712 
a ZEE 1 -0.782 -0.011 — 1 -0.981 - 0.001 — 1 - 0.002 1 0.486 1 0.803 
0.782 1 0.009 — - 0.981 1 0.004 — - 0.002 1 0.486 1 0.803 1 
= -0.011 0.009 1 一 -0.001 0.004 1 一 
o 注 : 表 1 中 仅 呈 现 为 实现 研究 目的 一 而 生成 的 各 参数 的 描述 统计 量 ， 这 是 因为 研究 目的 二 是 针对 36 种 特定 


能 力 值 的 被 试 。 


32 M 


从 能 力 估计 方法 、 选 题 


( 


本 研究 
量 值 9， 记 为 98， 参数 的 估计 范围 


能 力 向 


H 


AN 


( 


CCT 的 模拟 程序 描述 


1) 能 力 估计 方法 


一 


0 = 


arg max 
6e[-44]x[-4,4] 


{log[L @lY)]}. 


体 的 估计 过 程 由 R 3.4.2 中 的 donlp2 函数 实现 。 


2) 选 题 策略 


11 


策略 以 及 终止 规则 等 三 个 方面 对 MCCT 的 模拟 过 程 进行 描述 : 


采用 约束 的 极 大 似 然 估计 法 (Maximum Likelihood Estimation, MLE) 估计 被 试 的 


限定 在 [一 和 4] x [一 4, 儿 的 正方 形 区 域 ， 公 式 如 下 ， 


(24) 


根据 以 往 研 究 (Nydick, 2013; Segall, 1996)， 使 用 经 典 的 D 最 优 CD-optimality) 策略 选 
取 题 目 。D 最 优 策 略 选择 最 大 化 Fisher 信息 矩阵 的 行列 式 的 题目 , 它 等 价 于 选择 最 小 化 未 知 
参数 协 方差 矩阵 的 行列 式 〈 即 8 的 置信 椭 球 体积 ) 的 题目 。 针 对 (1) 式 定义 的 MIRT 模型 ， 
任 一 题目 /的 Fisher 信息 矩阵 为 ， 


azlog[L(BIY)]] — -r Olle -c r 
2608 | poa 4: Q5) 


1(8) = -e| 


在 模拟 的 二 维 情境 下 ， 上 述 Fisher (AEEA x 2 的 矩阵 。 在 选择 第 / 道 题目 时 ， 
关于 6 的 Fisher 信息 矩阵 是 “已 作答 的 — 1 道 题 目的 信息 矩阵 ”与 “候选 的 第 / 道 题 的 信息 矩 


UE" ZI CHEN 1,0) + (9))。 由 此 ， 被 试 能 力 估 计 值 的 置信 椭 球 的 体积 为 ， 


Var (8) = |F/-11(0) +O, (26) 


使 用 D 最 优 策略 选择 的 第 / 道 题 目 就 是 剩余 题库 中 使 得 公式 (26) 达到 最 小 的 题目 。 

另外 ， 由 于 在 测验 初期 难以 获得 对 被 试 能 力 的 准确 估计 值 CChang & Ying, 1996)， 难 以 
达到 精准 选 题 的 目的 。 因 此 ， 本 研究 中 每 次 测验 的 前 4 道 试题 从 题库 中 随机 抽取 产生 。 

(3) 终止 规则 与 分 界 曲 线 


本 研究 采用 C-SPRT、P-SPRT、M-GLR、M-SCSPRT、Mahalanobis-SPRT、M-SCGLR 等 


6 种 规则 终止 测验 。 按照 Thompson (2010) 的 设置 , 这 里 令 w = B = 0.1 He = ez = 0.025. 

为 考察 不 同类 型 的 分 界 曲线 对 结果 的 影响 , 本 研究 设置 两 种 分 界 曲线 : 补偿 性 分 界 曲线 和 非 
补偿 的 分 界 曲线 。 其 中 , 补偿 性 分 界 曲线 是 指 不 同 维度 间 的 能 力 是 通过 线性 组 合 的 方式 结合 
在 一 起 ， 此 时 被 试 在 某 个 维度 上 能 力 的 不 足 可 以 由 其 在 其 他 维度 上 的 高 能 力 来 补偿 。 否 则 ， 
当 被 试 不 同 维度 间 的 能 力 无 法 相互 补偿 时 ， 即 为 非 补偿 性 分 界 曲线 。 参 考 Nydick (2013) 的 
做 法 ， 本 研究 选取 的 补偿 性 分 界 曲线 为 9(6) = 0, + 9 = 0， 非 补偿 的 分 界 曲线 为 9(6) = 


你 -0,0,20 
05 = 0,04 > 0 


WY 
o 


C BN SAS ZR Aes 28 HEU ICE — Be ER FE A 


3.3 评价 指标 

选择 平均 测验 长 度 (Average Test Length, ATL )、 正 确 分 类 率 (Percent of Correct 
Classification, PCC) 以 及 损失 函数 (1oss) 评价 每 种 终止 规则 。 

ATL 是 某 种 测验 情境 下 所 有 被 试 的 最 终 测 验 长 度 的 平均 值 ， 在 一 定 程度 上 反映 测验 效 


K. PCC 是 被 正确 分 类 的 被 试 占 该 测验 情境 下 所 有 被 试 的 比例 ， 反 映 测 验 分 类 精度 。 
Finkelman (2010) 定义 的 loss 是 对 某 次 测验 的 测验 精度 和 效率 的 综合 评价 指标 ， 
loss=RX1y+K, (27) 
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其 中 ，1w 表 示 错 误 分 类 的 示 性 函数 〈 当 对 被 试 错误 分 类 时 取 值 为 1， 当 没有 误 判 时 取 
值 为 0); KR 表示 错 误 分 类 的 惩罚 程度 ,一 般 为 非 负 值 ， 其 取 值 越 大 就 表示 对 错误 分 类 的 惩罚 
越 大 ， 即 对 精度 的 要 求 越 高 (在 计算 时 需 由 研究 者 根据 测验 对 错误 分 类 的 厌恶 程度 给 定 s 
K 和 前 文 一 样 ， 表 示 被 试 最 终 完 成 测验 时 实际 作答 的 题目 数 。 在 某 次 测验 中 ， 如 果 将 被 试 错 
误 分 类 ，loss 的 值 为 惩罚 值 R 与 该 次 测验 的 长 度 之 和 ;否则 ，loss 的 值 就 等 于 该 次 测验 的 长 


度 。 如 果 在 多 次 测验 中 国定 R， 并 将 式 27) 取 和 平均 


j 


可 得 到 平均 损失 ， 


» 


loss = R x (1 — PCC) + ATL, (28) 


由 此 ， 平 均 损 失 是 一 种 结合 PCC 和 ATL 的 综合 评价 指标 。 具 体 地 说 ，R 确 定 后 ， 对 于 


某 个 终止 规则 而 言 ， 其 PCC 越 大 且 ATL ith), 


则 平均 损失 就 越 小 ， 表 示 该 方法 表现 越 好 ; 


相反 地 ，PCC 越 小 ，ATL 越 大 , 平均 损失 就 越 大 ， 表示 该 方法 表现 越 差 。 根 据 平均 损失 的 大 


小 ， 就 可 以 指导 实际 测验 中 终止 规则 的 选择 。 


4 结果 
4.1 各 种 规则 的 分 类 精度 与 效率 


图 2 呈现 了 6 种 终止 规则 在 各 种 MCCT 测验 情境 下 的 ATL 及 PCC 结果 。 
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图 2 6 种 终止 规则 在 各 种 测验 情境 下 的 结果 对 比 医 

在 图 2 中 ， 根 据 是 否 采用 随机 缩减 技术 可 以 将 6 种 规则 分 为 两 类 。 在 所 有 的 12 种 测验 
情境 中 , 未 采用 随机 缩减 技术 的 C-SPRT、P-SPRT、M-GLR 以 及 新 提出 的 Mahalanobis-SPRT 
规则 的 PCC 均 较 高 , 而 采用 随机 缩减 技术 的 M-SCSPRT 以 及 新 提出 的 M-SCGLR 的 PCC 相 
对 较 低 〈 但 也 都 在 80% 以 上 )。 与 此 同时 ， 采 用 随机 缩减 技术 的 2 种 规则 的 ATL 明显 低 于 未 
采用 随机 缩减 的 4 种 规则 。 也 就 是 说 ， 随 机 缩减 的 方法 尽管 可 能 损失 一 定 的 分 类 精度 ， 但 能 
较 大 幅度 地 缩短 被 试 作答 的 测验 长 度 。 

考察 本 研究 提出 的 两 种 新 方法 的 表现 。 对 于 本 文 提出 的 Mahalanobis-SPRT, 在 补偿 性 分 
界 曲 线 的 情境 下 ， 其 总 体 上 具有 较 高 的 PCC: 在 题目 间 多 维 时 ， 该 方法 的 PCC 仅仅 略 低 于 
表现 最 好 的 P-SPRT 方法 ， 而 在 题目 内 多 维 时 ， 该 方法 具有 6 种 方法 中 最 高 的 PCC; 而 在 非 
补偿 性 分 界 曲线 的 情境 下 ， 虽 然 该 方法 的 PCC 低 于 其 他 未 使 用 随机 缩减 的 方法 ， 但 是 ATL 
也 有 相应 的 降低 , 而 且 可 以 看 到 其 表现 随 能 力 维度 间 相 关 的 升 高 有 更 大 改善 。 对 于 本 文 提出 
的 另 一 种 终止 规则 ( 即 M-SCGLR)， 在 几乎 所 有 测验 情境 下 ， 相 比 于 同样 采用 随机 缩减 的 
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| 


j 


= 


M-SCSPRT， 它 的 PCC 有 较 大 提高 ， 而 ATL 增加 的 却 并 不 多 。 在 使 用 非 补偿 性 曲线 和 题目 


内 多 维 的 情境 下 ，M-SCGLR 的 PCC 甚至 能 够 接近 未 采用 随机 缩减 技术 的 规则 的 水 平 。 


考察 能 力 维度 间 的 相关 水 平 对 各 终止 规则 的 影响 , 可 以 发 现 : 随 着 能 力 维度 间 相 关系 数 


p 的 增加 ，6 种 终止 规则 的 ATL 有 减少 的 趋势 ， 而 PCC 则 有 升 高 的 趋势 。 以 Mahalanobis- 


SPRT 规则 为 例 ， 随 着 p 的 增加 ， 其 在 每 个 p 值 下 的 四 种 测验 情境 里 的 平均 PCC 由 0.916 逐渐 


增加 到 0.925 和 0.942， 而 平均 ATL 则 由 57.037 下 降 到 54.437 和 52.384。 考 察 分 界 曲 线 对 


各 终止 规则 的 影响 ， 可 以 发 现 : 相 比 于 非 补偿 的 分 界 曲线 ，6 种 终止 规则 在 几乎 所 有 的 补偿 


性 分 界 曲线 情境 下 的 ATL 均 有 所 下 降 ， 而 PCC 则 有 所 升 高 。 考 察 题库 结构 对 各 终止 规则 的 


影响 时 ,情况 就 变 得 复杂 起 来 。 由 图 2 知 ， 它 与 分 界 曲线 会 对 各 终止 规则 的 表现 产生 交互 作 


用 。 也 就 是 说 ， 在 补偿 性 分 界 曲线 的 情境 下 ， 相 比 于 题目 间 多 维 的 条 件 ，6 种 终止 规则 在 题 
目 内 多 维 条 件 下 的 ATL 均 有 所 下 降 ， 而 PCC 均 有 所 升 高 。 而 在 非 补偿 分 界 曲线 的 情境 下 ， 
6 种 规则 在 题目 内 多 维 与 题目 间 多 维 的 差异 就 没有 统一 规律 。 


图 3 呈现 的 是 6 种 终止 规则 在 各 种 MCCT 测验 情境 下 的 标准 化 平均 损失 。 图 中 的 横 坐 


标 代 表 错 误 分 类 的 和 您 罚 R( 详 见 公 式 (800, 其 从 区 间 [0,3000] 按 步 长 为 1 UL, 共 得 到 3001 


个 点 ; 纵 坐标 是 在 各 个 R 值 下 6 种 规则 的 平均 损失 的 标准 化 值 :。 
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标准 化 的 平均 损失 
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错误 分 类 的 惩罚 R 


终止 规则 — C-SPRT --: P-SPRT —- Mahalanobis-SPRT — - 


图 3 6 种 终止 规则 在 各 种 测验 情境 下 的 标准 化 平均 损失 变化 区 


M-GLR *** M-SCGLR : 7 M-SCSPRT 


根据 平均 损失 的 定义 ， 随 着 R 值 的 增加 ， 平 均 损失 对 误 判 的 敏感 度 不 断 上 升 。 当 R 值 约 


小 于 500 IN, ATL 较 小 的 规则 ( 即 M-GLR、M-SCGLR 和 M-SCSPRT) 平均 损失 较 小 ， 当 R 


值 大 于 约 1000 时 ,平均 损失 对 测验 分 类 精度 更 敏感 ， 


SPRT 和 Mahalanobis-SPRT) 平均 损失 更 小 。 


分 类 精度 较 高 的 规则 〈 即 C-SPRT、P- 


对 于 新 提出 的 Mahalanobis-SPRT, 在 补偿 性 分 界 上 


出 线 的 所 有 情境 下 ,该 方法 在 对 精度 要 


求 较 高 〈 即 R 取 值 较 大 ) 时 ， 有 具有 更 低 的 平均 损失 《这 与 其 在 补偿 性 分 界 曲线 的 条 件 下 具有 
更 高 的 PCC 是 对 应 的 );， 在 非 补偿 分 界 曲线 的 所 有 情境 下 ， 无 论 R 的 取 值 如 何 ， 其 平均 损失 
的 值 整体 上 处 于 6 种 方法 的 中 间 位 置 。 这 就 是 说 , 在 实际 测验 中 ， 该 方法 更 适用 于 以 下 两 种 


情境 : 一 是 使 用 补偿 性 分 界 曲线 且 对 精度 要 求 较 高 的 情境 。 在 该 情境 下 ，Mahalanobis-SPRT 
的 平均 损失 较 其 他 规则 更 低 , 表现 更 好 ; 二 是 使 用 非 补 偿 性 分 界 曲线 且 不 能 确定 对 精度 的 具 
体 要 求 的 情境 。 此 时 ， 虽 然 Mahalanobis-SPRT 的 平均 损失 并 不 是 最 低 ， 但 是 由 于 测验 对 精 


度 的 要 求 并 不 确定 ， 选 择 其 他 规则 可 能 会 导致 在 精度 
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要 求 较 高 / 较 低 时 产生 较 大 的 损失 。 
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chinaXiv 


此 ， 可 以 将 Mahalanobis-SPRT 作为 一 种 相对 “保守 ”的 选择 。 对 于 本 研究 提出 的 另 一 种 规 
WW CH] M-SCGLR)， 在 几乎 所 有 测验 情境 下 ， 该 方法 在 R 很 小 〈 约 小 于 200) 时 的 平均 损失 
略 高 于 同样 使 用 随机 缩减 技术 的 M-SCSPRT。 但 是 ,在 R 的 值 稍 高 ( 约 大 于 200) 时 ,M-SCGLR 
的 平均 损失 较 M-SCSPRT 有 明显 的 降低 〈 这 与 “其 PCC 较 M-SCSPRT 有 较 大 提高 ， 而 ATL 
的 增加 则 相对 较 少 ”相对 应 )。 这 表明 在 多 数 情境 下 ，M-SCGLR 在 测验 精度 上 明显 优 于 M- 
SCSPRT。 
4.2. 各 种 规则 对 特定 被 试 的 敏感 度 

对 应 于 第 二 个 研究 目的 ， 图 4 和 图 5 呈现 了 能 力 为 各 种 特定 值 的 被 试 在 6 种 终止 规则 
下 的 PCC 结果 。 需 要 说 明 的 是 ， 图 4 中 的 黑色 实 线 表示 补偿 的 能 力 分 界 曲线 g(8) = 0, + 


04 = 0,0, >0 
0; = 0,0, 20 


0; = 0， 图 5 中 的 黑色 实 线 则 表示 非 补 偿 的 能 力 分 界 曲 线 g (9) =Í 
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图 4 能 力 为 各 种 特定 值 的 被 试 在 补偿 性 边界 下 6 种 终止 规则 的 PCC 结果 
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15 能 力 为 各 种 特定 值 的 被 试 在 非 补偿 性 边界 下 6 种 终止 规则 的 PCC 结果 
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由 图 4 和 图 5 可 知 ， 无 论 采 用 哪 种 分 界 曲线 ，6 种 终止 规则 在 PCC 指标 上 对 各 种 特定 
能 力 被 试 的 敏感 度 呈 现 出 一 致 的 变化 规律 ,具体 而 言 , 对 于 能 力 值 靠近 能 力 分 界 曲线 的 被 试 ， 
其 测验 的 PCC 都 较 低 ， 而 对 于 能 力 值 远离 能 力 分 界 曲 线 的 被 试 ， 其 测验 的 PCC 都 较 高 。 这 
说 明 能 力 值 越 靠近 能 力 分 界 曲 线 的 被 试 , 越 难 对 其 进行 准确 的 分 类 。 上 述 能 力 为 各 种 特定 值 
的 被 试 在 ATL 上 呈现 的 规律 则 与 PCC 恰好 相反 。 也 即 对 于 6 种 终止 规则 ， 能 力 值 越 靠近 能 
力 分 界 曲线 的 被 试 ， 其 ATL 越 大 。 限 于 篇 幅 ， 此 处 不 再 呈现 ATL 的 结果 。 


5 讨论 及 未 来 的 研究 方向 

本 研究 采用 测验 分 类 精度 及 测验 效率 两 个 方面 的 指标 ， 将 新 提出 的 两 种 MCCT 终止 规 
则 与 己 有 的 终止 规则 进行 比较 。 在 单 维 CCT 中 ， 基 于 不 同类 别 被 试 间 的 能 力 阔 值 即 可 构造 
似 然 比 统计 量 ， 并 进行 假设 检验 ， 从 而 达到 对 被 试 进行 分 类 的 目的 。 但 在 MCCT 中 ， 由 于 
不 同类 别 被 试 的 分 界 点 变 为 分 界 曲线 或 曲面 ， 故 需要 对 传统 CCT 中 的 方法 进行 调整 以 适应 
这 一 变化 。 在 已 有 的 MCCT 终止 规则 中 ，C-SPRT 5 P-SPRT 规则 分 别 使 用 约束 与 投影 的 方 
式 ， 将 能 力 分 界 曲线 或 曲面 “压缩 ”为 分 界 点 ; M-GLR 规则 对 统计 量 的 定义 域 进行 一 定 的 
调整 ， M-SCSPRT 规则 将 随机 缩减 技术 与 C-SPRT 相 结合 ， 大 大 提高 测验 效率 。 值 得 注意 的 
是 ， 由 于 P-SPRT 仅 使 用 一 次 估计 的 能 力 结果 进行 投影 ， 在 测验 初期 可 能 会 使 投影 得 到 的 go 
不 够 稳定 ,从 而 影响 测验 分 类 。 对 此 , 本 文 提 出 基于 马 氏 距离 的 Mahalanobis-SPRT 新 规则 ， 
以 弥补 这 一 不 足 。 另 外 , 本 文 在 MCCT 情境 中 还 对 单 维 的 SCGLR 方法 进行 多 维 拓 展 ， 并 得 
到 M-SCGLR 新 规则 。 

根据 4.1 的 结果 ， 有 一 些 值 得 讨论 的 发 现 : (1) 对 于 本 研究 提出 的 M-SCGLR 方法 ,在 
非 补偿 曲线 和 题目 内 多 维 的 情境 下 ， 其 PCC 较 高 ， 接 近 未 使 用 随机 缩减 技术 的 方法 。 这 可 
能 是 因为 以 广义 似 然 比 为 基础 的 M-SCGLR 方法 不 需要 “将 分 界 曲线 转化 为 分 界 点 ” 所 以 
受 分 界 曲线 的 影响 更 小 ， 而 其 他 规则 的 PCC 在 非 补偿 曲线 的 情境 下 会 明显 下 降 ; (2) 对 于 
Mahalanobis-SPRT 方法 而 言 , 尽管 预期 其 能 够 弥补 P-SPRT 在 测验 前 期 所 产生 的 能 力 估计 问 
题 , 但 是 它 在 模拟 结果 中 的 表现 并 不 尽 如 人 意 。 这 可 能 是 由 于 该 方法 在 测验 后 期 时 , 会 使 用 
较 多 测验 前 期 的 作答 信息 ,从 而 加 大 测验 前 期 作答 对 结果 的 影响 。 本 研究 所 设置 的 最 大 测验 
长 度 为 100， 这 意味 着 在 测验 结束 时 ， 往 往 能 够 得 到 比较 准确 的 被 试 能 力 估计 值 。 因 此 ， 
Mahalanobis-SPRT 方法 对 P-SPRT 初期 的 能 力 估 计 问 题 的 弥补 可 能 就 无 法 很 好 体现 。 当 最 大 
测验 长 度 较 小 时 ， 该 方法 可 能 会 有 更 好 表现 ; (3) 在 未 使 用 随机 缩减 的 4 种 规则 中 , M-GLR 


规则 的 ATL 较 其 他 3 种 规则 有 较 大 幅度 的 减少 ， 这 与 Thompson (2011) 在 单 维 情境 下 得 到 
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的 结论 一 致 ; 《4) 随 着 能 力 维度 间 相 关系 数 p 的 增加 ，6 种 终止 规则 都 有 更 好 的 表现 。 这 主 


要 是 因为 增加 维度 间 相 关 有 助 于 提高 能 力 向 量 的 估计 精度 。 这 也 与 贝 叶 斯 统计 中 的 普遍 观点 


( 即 从 高 度 相 关 的 维度 中 借 月 


信息 会 产生 更 准确 的 能 力 估 计 ) 一 致 ; (5) 相 比 于 非 补偿 的 分 


界 曲线 ，6 种 终止 规则 在 几乎 所 有 的 补偿 性 分 界 曲线 情境 下 都 有 更 好 的 表现 ， 这 是 因为 本 研 


究 所 使 用 的 M3PL 模型 是 补偿 性 模型 ， 其 与 补偿 性 的 分 界 曲线 更 为 契合 ,所 以 导致 “在 补偿 


性 曲线 情境 下 ， 和 名 个 终止 规则 的 表现 更 好 ” (60 题库 结构 与 分 界 曲线 会 对 终止 规则 的 表现 


产生 交互 作用 。 有 基体 而 言 ， 在 补偿 性 分 界 曲线 的 情境 下 ， 相 比 于 题目 间 多 维 的 条 件 ，6 种 终 


止 规则 在 题目 内 多 维 条 件 下 的 表现 更 好 。 这 可 能 是 因为 相 较 于 题目 间 多 维 的 题库 结构 , 题目 


内 多 维 的 题库 结构 能 够 提供 更 高 的 多 维 区 分 度 ， 从 而 提高 能 力 估 计 的 准确 性 。 具 体 来 说 ,对 
于 有 着 题目 内 多 维 结构 的 题库 1 来 说 , 每 个 维度 被 所 有 900 个 题目 测量 ; 而 对 于 有 着 题目 间 


多 维 结构 的 题库 2 来 说 ， 每 个 维度 只 有 450 个 题目 测量 (一 半 题 目的 a = 0， 另 一 半 题 目 


lim] 


a, = 0)。 但 是 在 非 补 偿 分 界 曲线 的 情境 下 , 6 种 规则 在 题目 内 多 维 与 题目 间 多 维 的 差异 就 没 


统一 规律 。 这 可 能 是 由 于 本 研究 考虑 的 非 补偿 边界 其 实 就 是 直角 坐标 系 中 构成 第 一 象限 的 


坐标 轴 , 所 以 边界 上 的 能 力 阀 值 都 只 具有 单一 维度 ， 导 致 题目 内 多 维 的 上 述 优势 不 能 很 好 发 


挥 。 


此 外 , 还 需要 注意 的 一 点 是 MCCT 中 的 能 力 维度 数量 。 理论 上 看 , 随 着 维度 数 的 增加 ， 
平均 测验 长 度 会 逐渐 增加 ,而 测验 精度 则 会 有 下 降 趋 势 。 但是, MCCT 是 一 个 相当 复杂 的 系 
统 。 当 维度 数 不 断 增 大 时 , 平均 测验 长 度 和 测验 精度 将 会 呈现 何 种 变化 趋势 (是 指数 式 的 变 


化 还 是 线性 的 变化 ? )、 不 同 


机 缩减 技术 的 优势 是 否 会 进一步 扩大 ， 都 有 待 进一步 的 研究 。 同 时 ， 当 维度 数 增 大 到 一 定 程 


终止 规则 与 不 同 选 题 策略 的 组 合 会 对 结果 造成 何 种 影响 以 及 随 


度 时 ， 计 算 机 还 将 会 面临 一 些 计算 上 的 挑战 。 


本 研究 仍 有 一 些 不 足 之 处 ， 比 如 : 本 文 主要 局 P 


于 提出 新 规则 以 及 模拟 实现 上 ， 在 对 新 


I 


规则 理论 性 质 的 推导 和 证 明 等 方面 仍 有 待 完善。 本 研究 所 讨论 的 规则 均 限 定 在 对 被 试 进行 二 
分 的 情境 下 , 而 没有 考虑 多 分 类 的 情况 。 在 模拟 研究 的 设置 上 , 本 研究 没有 考虑 非 补 偿 MIRT 


模型 、 其 他 的 多 维 区 分 
响 。 


x 
kit 


SBE BOTT 3X. 不同 的 维度 数 以 及 不 同 的 最 大 测验 长 度 对 结果 的 影 


未 来 可 以 从 以 下 四 方面 进一步 开展 研究 : (1) 提出 新 的 多 维 似 然 比 统计 量 。 考 虑 构造 将 
能 力 分 界 曲线 或 曲面 转化 为 分 界 点 的 新 方法 , 使 得 “在 保证 良好 的 分 类 准确 率 及 测验 效率 的 


同时 ， 能 较 好 解决 目前 方法 9 


研究 者 对 多 分 类 的 CCT 终止 


存在 的 问题 ” (2) 开发 多 分 类 MCCT 的 终止 规则 。 目 前 ， 有 


规则 进行 探索 (比如 ，Wang etal.,2020)， 但 是 对 多 分 类 MCCT 
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4. 


终止 规则 的 研究 仍 未 见 公开 报道 。 构 造 多 分 类 MCCT 终止 规则 可 实现 在 多 维 情境 下 对 被 试 


的 更 细致 分 类 , 值得 今后 进一步 探索 ;(3 ) 考 虑 融入 过 程 性 信息 , 比如 反应 时 (responsetime )。 


已 有 研究 表明 ， 反 应 时 能 够 提高 能 力 估计 精度 〈《Wang & Hanson, 2005)。 结 合 反应 时 构造 


MCCT 终止 规则 ， 预 期 在 保证 测验 效率 的 同时 还 能 进一步 提高 分 类 精度 。 此 外 ,由 于 马 氏 距 
离 具 有 “不 受 量 纲 影响 ”和 “能 够 同时 考虑 能 力 与 反应 时 信息 ”等 特点 ， 因 此 本 研究 提出 的 
Mahalanobis-SPRT 可 为 这 方面 的 探索 提供 一 种 可 行路 径 : CAO 在 模拟 研究 中 ,考虑 更 丰富 的 
条 件 设置 (比如 ,不 同 的 MIRT 模型 、 多 维 区 分 度 参数 的 生成 方式 、 维 度数 以 及 最 大 测验 长 


度 等 )， 考 察 其 对 结果 的 影响 。 
6 结论 
模拟 结果 显示 : (1) 在 使 用 补偿 性 分 界 函 数 的 条 件 下 ， 新 提出 


的 Mahalanobis-SPRT 规 


则 具有 较 高 的 分 类 精度 以 及 与 其 他 未 使 用 随机 缩减 的 方法 相近 的 测验 长 度 ; 〈2) 在 几乎 所 有 


NI 


实验 条 件 下 ， 新 提出 的 M-SCGLR 规则 不 仅 在 测验 精度 大 幅 优 于 同样 采用 随机 缩减 的 M- 
SCSPRT 规则 ， 而 且 具 有 较 短 的 测验 长 度 ; (3) 6 种 终止 规则 在 PCC 和 ATL 上 对 具有 不 同 


能 力 被 试 的 敏感 度 呈 现 出 一 致 的 变化 规律 。 
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附录 1 M-SCGLR 中 P(Dj = Dy|Ciy' ) 的 推导 


将 被 试 作答 至 最 大 测验 长 度 ] 时 ,对 被 试 的 分 类 判断 与 当前 (作答 站 道 题 ) 一 致 的 概率 记 
为 P(Dj) = Dj|Ciy )。 具 体 地 说 ， 如 果 目 前 的 临时 判断 为 被 试 属于 “未 掌握 ” 类别 ， 则 被 试 作 
答 至 最 大 测验 长 度 时 仍 被 判断 为 “未 掌握 ”的 概率 为 PLD = n|Cij')， 如 果 目 前 的 临时 判断 
为 被 试 属 于 “掌握 ”类 别 ， 则 被 试 作答 至 最 大 测验 长 度 时 仍 被 判断 为 “掌握 ”的 概率 为 


P(D, = m|C;;")« 不 失 一 般 性 ， 我 们 对 P(D/ = n|Ciy') 的 计算 过 程 进 


行 推导 。 


根据 Fineklman(2008 ) 的 研究 , 可 以 使 用 Siegmund(1985) 所 描述 的 技巧 .P(D) = n|C;;") 


实际 上 即 为 P(Cij < Co1Ciy')。 利 用 对 数 可 加 性 以 及 中 心 极限 定理 ， 
的 渐 近 正 态 性 ， 可 以 得 到 
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使 用 给 定 Ci 下 条 件 分 布 


P(D, = n|Cij) EB (eser) (Al) 


vare(Ciy|C;;") 


juni 


日 于 Cz 中 本身 包 含 Ci7 的 部 分 ,根据 对 数 的 可 加 性 及 条 件 期 望 的 性 质 , 可 得 到 公式 (A1) 
Eee | 
Eg(Cis|Ciy )= Eg log= ER 


Led [.(6;|Y;;)] 2 


i „ „Sup UN NACE QU 
= Es 01EQm y g% 


Oe Sp EEREN] «re P sap GT 


XL. 


2 (A2) 


j=j'+1 


sup [L(0, IY] 
Ex ad Y Eg waren, 


类 似 地 ， 根 据 作答 反应 的 条 件 独立 性 及 条 件 方差 的 性 质 ， 可 得 
SUP En ml 2 


Eis [L(02|Y;)] 
| „Sup [Zz(91|Y;)] sup [L(6; IU 
Varo | X J Bu 


log Om — +5 11 08 T 
~ Sup ealo) HS E UU 


Vare(Cij|Ci; ') = wn (oe 


2 (A3) 


实际 上 , Huebner 和 Fina(2015 ) 在 单 维 情境 下 已 对 这 一 过 程 进 行 推导 。 与 单 维 的 SCGLR 
相 比 ， 在 本 文 考虑 的 MCCT 情境 中 ，M-SCGLR 只 是 将 Ci 中 求 极 值 的 集合 由 单 维 的 区 间 变 
为 多 维 空间 中 的 区 域 ， 因 此 其 推导 过 程 是 一 致 的 。 


， sp Dro.) 
= 》 var (ee 


j=j'+1 


附录 2 各 终止 规则 的 模拟 结果 


表 2 图 2 所 对 应 的 模拟 结果 


相关 分 界 曲 线 题库 结构 终止 规则 PCC ATL 
C-SPRT 0.948 52.959 

P-SPRT 0.948 49.541 
p=0 补偿 性 题目 内 多 维 Mahalanobis-SPRT 0.950 53.216 
M-GLR 0.924 32.241 
M-SCGLR 0.858 18.849 
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题目 间 多 维 


题目 内 多 维 
非 补偿 性 

题目 间 多 维 

题目 内 多 维 
补偿 性 

题目 间 多 维 

p=05 

题目 内 多 维 
非 补偿 性 

题目 间 多 维 


M-SCSPRT 
C-SPRT 

P-SPRT 
Mahalanobis-SPRT 
M-GLR 
M-SCGLR 
M-SCSPRT 
C-SPRT 

P-SPRT 
Mahalanobis-SPRT 
M-GLR 
M-SCGLR 
M-SCSPRT 
C-SPRT 

P-SPRT 
Mahalanobis-SPRT 
M-GLR 
M-SCGLR 
M-SCSPRT 
C-SPRT 

P-SPRT 
Mahalanobis-SPRT 
M-GLR 
M-SCGLR 
M-SCSPRT 
C-SPRT 

P-SPRT 
Mahalanobis-SPRT 
M-GLR 
M-SCGLR 
M-SCSPRT 
C-SPRT 

P-SPRT 
Mahalanobis-SPRT 
M-GLR 
M-SCGLR 
M-SCSPRT 
C-SPRT 

P-SPRT 
Mahalanobis-SPRT 
M-GLR 
M-SCGLR 
M-SCSPRT 
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0.807 
0.930 
0.929 
0.930 
0.904 
0.851 
0.805 
0.908 
0.915 
0.873 
0.916 
0.879 
0.829 
0.931 
0.927 
0.909 
0.919 
0.864 
0.825 
0.949 
0.949 
0.951 
0.929 
0.880 
0.848 
0.942 
0.943 
0.942 
0.921 
0.879 
0.836 
0.915 
0.918 
0.890 
0.917 
0.879 
0.843 
0.931 
0.931 
0.917 
0.925 
0.876 
0.839 


12.649 
61.981 
57.835 
58.876 
36.016 
20.848 
13.504 
69.070 
55.622 
57.369 
41.331 
26.151 
17.048 
61.163 
58.847 
58.686 
36.718 
20.974 
14.012 
51.839 
46.301 
49.922 
28.306 
16.641 
12.333 
60.648 
54.795 
55.901 
32.052 
20.429 
13.478 
69277 
56.422 
54.840 
41.205 
25.501 
16.417 
65.105 
61.374 
57.084 
37.549 
21.250 


13.966 


C-SPRT 0.960 50.987 


P-SPRT 0.957 45.382 
Mahalanobis-SPRT 0.961 48.457 

题目 内 多 维 
M-GLR 0.946 27.139 
M-SCGLR 0.896 16.513 
M-SCSPRT 0.858 12.313 

补偿 性 

C-SPRT 0.958 58.903 
P-SPRT 0.958 52.540 
Mahalanobis-SPRT 0.958 53.414 

题目 间 多 维 
M-GLR 0.939 30.312 
M-SCGLR 0.897 19.343 
M-SCSPRT 0.851 13.860 

p=0.8 

C-SPRT 0.920 68.485 
P-SPRT 0.928 56.274 
Mahalanobis-SPRT 0.916 52.433 

题目 内 多 维 
M-GLR 0.917 39.755 
M-SCGLR 0.902 25.742 
M-SCSPRT 0.856 16.835 

非 补偿 性 

C-SPRT 0.944 65.928 
P-SPRT 0.941 61.900 
Mahalanobis-SPRT 0.933 55.232 

题目 间 多 维 
M-GLR 0.935 35.541 
M-SCGLR 0.898 20.446 
M-SCSPRT 0.857 14.111 
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Abstract 


Computerized classification testing (CCT) is a subset of computerized adaptive testing 
(CAT), and it aims to classify examinees into one of at least two possible categories that denote 
results such as pass/fail or non-mastery/partial mastery/mastery (Huebner & Fina, 2015). 
Therefore, CCTs focus on increasing the accuracy of classification which is different from CATs 
designed for precise measurement (Nydick, 2013). The termination rule is one of the key 
components of CCT. However, as pointed out by Nydick (2013), most CCTs (1.e., UCCTs) were 
designed under unidimensional item response theory (IRT), in which the unidimensionality 
assumption is easily violated in practice. Thus, researchers then began to construct 
multidimensional CCT termination rules (1.e., MCCT) based on multidimensional IRT. To date, 
however, these rules still have some deficiencies in terms of classification accuracy or test 
efficiency. 

Most current studies on termination rules of MCCT are based on termination rules of UCCT. 
In UCCTS, termination rules require setting a cut point, 99, of the latent trait to calculate the 
statistics; and when they are extended from UCCT to MCCT, the cut point will become a 
classification bound curve or even a surface (i.e., g(0) — 0). At this time, a question is how to 
convert the curve or surface into 0o. To this end, the projected sequential probability ratio test (P- 
SPRT), constrained SPRT (C-SPRT; Nydick, 2013), and multidimensional generalized likelihood 
ratio (M-GLR) were respectively proposed to solve the problem in different ways. Among them, 
P-SPRT and C-SPRT choose specific points on g(O) as the approximate cut point, Êo, by 
projecting into Euclidean space or constraining on g(0) respectively; as for M-GLR, because the 
generalized likelihood ratio statistic can be calculated without a cut point, it can be directly 
employed in MCCT. To overcome the limitation that P-SPRT may lead to unstable results at the 
beginning of the test, this study proposed the Mahalanobis distance-based SPRT (Mahalanobis- 
SPRT). 

In addition, stochastic curtailment is a technique for shortening the test length by predicting 
whether the classification of participants will change as the test continues. This article also 
combined M-GLR with the stochastic curtailment and proposed M-GLR with stochastic 
curtailment (M-SCGLR). 

A full-scale simulation study was conducted to (1) compare both the Mahalanobis-SPRT and 
M-SCGLR with the P-SPRT, C-SPRT, M-GLR, and multidimensional stochastically curtailed 
SPRT (M-SCSPRT) under varying conditions; (2) compare the classification performance of the 
above six termination rules for participants with specific abilities to explore whether there is a 
significant difference in the sensitivity of various rules to classify specific participants. To achieve 
the first research objective, three levels of correlation between dimensions (p — 0, 0.5, and 0.8), 
two item bank structures (within-item multidimensionality and between-item 
multidimensionality), and two kinds of classification boundary (compensatory boundary and non- 
compensatory boundary) were considered; to achieve the second objective, 36 specific ability 
points (84,82) were generated where 0,,0, € (—0.5, —0.3, —0.1, 0.1, 0.3, 0.5). The results 
showed that: (1) when the compensatory classification function was used, the Mahalanobis-SPRT 
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led to higher classification accuracy and similar test length to the rules without stochastic 
curtailment; (2) under almost all conditions, the M-SCGLR not only possessed higher precision 
but also maintained the short test length, compared to M-SCSPRT that also uses stochastic 
curtailment; (3) the six termination rules showed a consistent change in the sensitivity of the 
precision and test length to specific participants. 

To sum up, two new MCCT termination rules (Mahalanobis-SPRT and M-SCGLR) are put 
forward in this article. Although the simulation results are very promising, several research 
directions merit further investigation, such as the development of MCCT termination rules for 
more than two categories, and the construction of MCCT termination rules by incorporating 


process data like the response time. 


Key words computerized classification testing, termination rule, multidimensional item response 
theory, Mahalanobis distance, stochastic curtailment 
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